查看原文
其他

Bioinformatics | 通过修正异质信息中不完整信息的影响来预测药物-蛋白相互作用

智药邦 智药邦 2022-12-15

2022年9月16日,南开大学Liu Jian和卫金茂团队在Bioinformatics上发表论文《Drug-Protein Interaction Prediction by Correcting the Effect of Incomplete Information in Heterogeneous Information》。论文中,借助双向随机游走算法,作者提出了用完整信息的相似度矩阵修正基于不完整信息的预测结果的BRWCP模型,用于预测药物-蛋白相互作用,得到了较好的结果,并进行了深入的分析和案例研究。



1 摘要

背景:大规模异质数据为预测药物-蛋白质相互作用(drug-protein interactions, DPIs)提供了不同的视角。然而,与药物或蛋白质相关的分子相互作用和临床关联的可利用信息是不完整的,因为可能存在未经证实的相互作用和关联。现有数据中的这种不完整信息以不相互作用和不相关的形式呈现,这可能会误导预测模型。现有的方法将不完整信息和完整信息融合在一起,而不考虑它们的完整性,因此不完整信息的负面影响仍然存在。

结果:作者开发了一种基于网络的DPI预测方法BRWCP,它使用完全信息网络来修正不完全信息网络获得的预测结果。通过整合可能不完整的相关异质信息,获得药物和蛋白质的特征相似度。结合特征相似度和已知DPIs,构建了一个基于不完全信息的药物-蛋白异质网络。然后,在该异构网络中采用带剪枝的双向随机游走算法(a bidirectional rrandom walk with pruning algorithm)来预测潜在的DPIs。接下来,将预测的DPIs与药物的化学指纹相似度和蛋白质的氨基酸序列相似度相结合,构建完整的信息网络。在此网络上运用带剪枝的双向随机游走算法,得到最终的预测结果,直至收敛。实验结果表明,BRWCP优于几种最先进的DPI预测方法,案例研究进一步证实了其挖掘潜在药物-蛋白质相互作用的能力。



2 材料

2.1 数据集


DPI数据集包括药物-蛋白互作矩阵,相对稀疏且包含不完整信息的药物-药物互作矩阵、药物-疾病关联、药物-互作用矩阵,蛋白-蛋白互作矩阵、蛋白-疾病互作矩阵。数据还包括具有完整信息的根据药物的化学分子指纹计算的Jaccard相似度矩阵和蛋白的氨基酸序列计算的相似度矩阵

2.2 获取低维特征并计算特征之间的相似度


图1 计算药物或蛋白质特征相似度的过程。首先,将药物相关或蛋白质相关的不完整信息拼接起来,分别获得药物和蛋白质的特征矩阵。然后通过奇异值分解(sigular value decomposition)得到药物和蛋白质的特征向量。最后,将两个低维特征向量的余弦相似度作为其特征相似度。

为了获得药物或蛋白质的高质量低维特征表示,并从新的角度评估药物和蛋白质之间的相似性,集成了药物相关或蛋白质相关的不完全异构信息。获得低维特征向量和药物或蛋白质的特征相似度的过程如图1所示,具体描述如下。
拼接与药物相关的信息:药物-药物互作矩阵药物-疾病关联矩阵、药物-副作用矩阵,即
拼接与蛋白相关的信息:蛋白-蛋白互作矩阵、蛋白-疾病关联矩阵,即

分别视为药物和蛋白的特征矩阵,他们都是由相对稀疏和不完整的信息构成,为了消除噪声和获得低维的特征表示,对其应用奇异值分解算法,即
作者分别选择了前个奇异向量和奇异值用于计算药物和蛋白新的特征:
据此特征,分别计算药物之间、蛋白之间的余弦相似度,即


则可分别构成药物之间的相似度矩阵和蛋白之间的相似度矩阵


3 方法

3.1 问题描述 


药物集合:. 蛋白集合:. 药物-蛋白相互作用矩阵:,其中如果存在相互作用则,否则. 药物之间的特征相似度和序列相似度分别表示为. 蛋白之间的特征相似度和序列相似度分表表示为. 因此预测潜在DPIs的任务可以描述为:给定矩阵,更新

3.2 BRWCP方法概述


图2 此图显示了BRWCP的工作流程。(a)-(b) 构建基于不完全信息的药物-蛋白质异质网络。(b)-(c) 修剪异质网络。(c)-(d) 关系变换。(d)-(e)-(f) 构建基于完整信息的药物-蛋白质异质网络。随机行走算法在网络(b)、(c)、(f)上运行。

目前,连坐法(guilt-by-association)仍然是预测DPIs的一个重要原则。多源异质信息的引入为观察药物之间或蛋白质之间的关联提供了一个新的视角,其可以进一步帮助挖掘潜在的关联,提高DPI预测的准确性。然而,多源信息往往面临信息不完整的问题,这降低了数据的质量,从而限制了预测模型的性能。BRWCP通过使用完整的信息网络来修正不完整信息网络的预测结果,以减少不完整信息的负面影响。

BRWCP方法的工作流程如图2所示,步骤如下:

1. 由已知的DPIs、药物和蛋白质的特征相似度构建药物-蛋白质异质网络(图2 (a, b))。
2. 采用双向随机游走算法更新异质网络中预测的潜在DPIs。
3. 对药物和蛋白质的相似度网络进行剪枝(图2(c)),并在剪枝的异质网络中连续执行随机游走算法,以更新预测的DPI分数。
4. 构建并修剪药物和蛋白质的序列相似度网络。将先前预测的DPI关系转移到序列相似度网络中以形成新的药物-蛋白质异质网络(图2(d, e, f))。
5. 应用随机游走算法预测新异构网络上的DPI,直到其收敛。

3.3 构建基于不完整信息的药物-蛋白异质网络 


药物-蛋白预测模型是一个在异质网络上带重启的双向随机游走。在药物网络上游走:

在蛋白网络上游走:
为前文所述由不完整信息得到的药物之间的相似度矩阵和蛋白之间的相似度矩阵。为已知的DPI矩阵。是预测的药物-蛋白互作概率矩阵。是重启概率。
完整的双向随机游走算法(bidirectional random walk algorithm, BiRW)如算法1所示,其中初始化



3.4 剪枝


为了提取更可信的相似度关系,作者对相似度网络进行了剪枝:保留前个最大的相似度邻居,其余的相似度置为0.剪枝算法如算法2所示。

在算法2中,KNN(·)返回的是药物或蛋白最近邻居的位置信息。最后可以得到剪枝后的药物-蛋白异质网络:

然后在此网络上运行BiRW算法次,不断更新预测矩阵

3.5 修正模型 


数据包括具有完整信息的根据药物的化学分子指纹计算的Jaccard相似度矩阵和蛋白的氨基酸序列计算的相似度矩阵,因此作者构建了一个基于完全信息的异质网络来修正之前的预测结果。经过剪枝的网络表示如下:

然后作者根据剪枝后的基于完全信息的药物、蛋白相似度矩阵和3.4节中预测的药物-蛋白相互作用概率矩阵构建了一个新的异质网络。然后基于此网络运行BiRW算法次直至收敛。完整的BRWCP算法过程如算法3所示。

3.6 讨论 


在基于不完全信息的异质网络中,一些原本的正样本被作为负样本,因此这部分数据可能会误导模型,使预测结果走向错误的方向。作者使用完整的序列信息构建一个新的异质网络,并将之前的预测结果转移到新的网络中,然后在基于完整信息的异构网络中运行随机游走算法,可以在很大程度上纠正偏差。例如,如果在特征相似性中使用的五种相关信息全部丢失,将得到作为特征相似性的单位矩阵,基于这些相似性的预测是没有意义的,DPI矩阵也不会更新。在这种情况下,将DPI关系转移到完整的信息网络中,以实现随机游走算法,确保可以获得可靠的预测结果,可以在消融实验中看到结果。



4 结果 

为了评估模型的性能与作用,作者进行了广泛的实验:1. 不同评价指标上与其他模型的对比试验(图3和图4)。2. 模型的消融实验(图5)。3. 案例研究实验(表1)。

图3 不同DPI预测方法的ROC曲线和PR曲线

图4 不同的top 值的平均召回率

图5 不同条件下BRWCP算法的表现表1 排名前20的候选药物-靶标对

5 结论 

在这篇文章中,作者提出了一种新的预测药物-蛋白质相互作用的方法BRWCP,其基于一种双向随机游走剪枝算法。BRWCP分别基于不完全信息和完全信息构建了两个异质网络。基于不完全信息的异质网络集成了药物、蛋白质和疾病的多源信息,为DPI预测提供了新的视角。使用基于完全信息的异质网络来修正信息不完整对预测结果的影响,同时从另一个角度描述DPI任务。在将随机游走算法应用于不同异构网络的过程中,使用剪枝操作对相关网络进行剪枝,以提取更可靠的相似关系,提高预测的准确性。在最终的潜在DPI预测过程中,模型中基于不完全信息的异构网络将用所有已知的DPI进行更新,DPI预测的性能将更好。实验表明,BRWCP优于几种最先进的DPI预测方法。案例研究表明,BRWCP预测的一些DPI已经得到验证,因此BRWCP有望为生物学家筛选用于湿实验室实验的药物蛋白对提供有力的帮助。

参考文献

Yanfei Li, Chang Sun, Jin-Mao Wei, Jian Liu, Drug-Protein Interaction Prediction by Correcting the Effect of Incomplete Information in Heterogeneous Information, *Bioinformatics*, 2022;, btac629, https://doi.org/10.1093/bioinformatics/btac629 

--------- End ---------



感兴趣的读者,可以添加小邦微信(zhiyaobang2020)加入读者实名讨论微信群。添加时请主动注明-企业-职位/岗位 

姓名-学校-职务/研究方向




- 历史文章推荐 -


药靶相互作用

Bioinformatics | MGPLI:多粒度表示模型预测蛋白质-配体相互作用

●BMC Bioinform|CNN-DDI:基于卷积神经网络预测药物相互作用

●Drug Discov Today | 利用系统的蛋白质-配体相互作用指纹图谱进行药物发现

●Nat Mach Intel|一种用于分子相互作用和分子性质预测的自动图学习方法

●BIB | 整合多尺度邻近拓扑和跨模态相似性预测药物-蛋白相互作用 

BIB|基于图卷积网络和深度神经网络识别药物-靶点相互作用


您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存